Chapter 12. 오프라인 강화학습 (Offline RL): 정적 데이터셋의 가치
- 12.1 온라인 탐색의 한계와 오프라인 RL의 부상
- 12.2 핵심 난제: 분포 변화와 외삽 오차 (Distribution Shift)
- 12.3 정책 제약 및 정규화 기법 (Policy Constraints & Regularization)
- 12.4 보수적 가치 추정과 최신 알고리즘 (Modern Algorithms)
- 12.5 패러다임의 확장: 시퀀스 모델링으로서의 RL (RL as Sequence Modeling)
- 12.6 로봇을 위한 대규모 데이터셋과 벤치마크
- 12.7 오프라인 사전 학습 후 온라인 파인튜닝 (Offline-to-Online)